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用 于 处 理 不 努力 作答 的 标准 化 残 差 系列 方法 
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摘 要 文章 采 


残 差 系列 方法 在 识别 不 努力 作答 和 参数 佑 计 方面 的 表现 。 结 果 显 示 : () 不 存在 不 努力 作答 或 其 严重 性 


] 模 拟 研 究 , 分别 在 混合 多 层 模型 假设 满足 和 违背 的 情境 下 ， 比 较 了 混合 多 层 模型 方法 与 标准 化 


氏 时 ， 各 方 


[i] 


法 表现 接近 ; (2) 不 努力 作答 严重 性 高 时 ， 


定 参数 迭代 标准 化 残 差 法 普遍 更 优 , 混合 多 层 模 型 法 仅 在 假设 满足 且 


两 种 作答 反应 时 差异 大 的 条 件 下 表现 较 好 。 建 议 实际 应 用 中 优先 选择 固定 参数 迭代 标准 化 残 差 法 。 


关键 词 ”不 努力 作答 , 标准 化 反应 时 残 差 .迭代 净化 , 混合 多 层 模型 ， 贝 叶 
分 类 号 B841 
1 引言 


在 对 学 生 的 人 格 、 技 能 和 能 力 等 潜在 特质 进行 
测量 时 , 最 主要 的 目的 是 基于 测验 信息 得 到 学 生 洪 
在 特质 的 有 效 估计 值 。 然 而 ,在 实际 中 ,难免 有 学 
生 在 测验 时 不 努力 作答 (non-effortful response), 为 
测验 带 来 与 结构 无 关 的 污染 。 总 的 来 说 , 不 努力 作 
答 具 有 反应 时 短 、 正 确 率 低 、 提 供 的 心理 测量 学 信 
息 少 三 个 特征 (Wise, 2015; 2017)。 测 验 中 出 现 的 不 
努力 作答 会 对 测验 信 效 度 造成 各 种 不 利 影 响 。 首 先 ， 
很 多 情况 下 被 试 的 能 力 值 会 被 低估 (Rios et al., 
2017; Wise, 2015; Wise & DeMars, 2006; Wise & 
Kingsbury，2016)， 进 而 造成 群 组 分 数 的 差异 
(Borghans & Schils, 2012)。 其 次 , 题目 参数 估计 值 
的 偏差 会 增 大 (Wise & DeMars, 2006)。 第 三 ， 如 果 
不 同 子 群体 中 不 努力 作答 的 比例 不 同 , 这 种 差异 还 
可 能 导致 项 目 功 能 差异 (Setzer et al., 2013)。 第 四 ， 
测验 的 信息 量 、 信 度 会 出 现 偏 差 (Wise & DeMars, 
2006), 第 五 , 测验 所 测量 的 结构 也 可 能 变化 , AE 
效 度 出 现 偏 差 (Wise & DeMars, 2006)。 最 后 ,与 测 
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验 有 关 的 预测 变量 和 结果 变量 之 间 的 关系 , 假设 检 
验 得 到 的 结论 等 ， 都 可 能 出 现 偏差 (Clark et al., 
2003)。 因 此 , 在 测验 (特别 是 低 利 害 情境 下 测验 ) 的 
数据 分 析 中 ， 有 必要 通过 科学 的 方法 ， 处 理 不 努力 
作答 , 减 小 其 不 利 影响 , 得 到 更 准确 的 参数 估计 结果 。 
不 努力 作答 的 处 理 主 要 包括 识别 并 降低 权重 
和 在 模型 中 处 理 两 种 思路 。 识 别 并 降低 权重 是 指 在 
数据 清理 时 首先 识别 不 努力 作答 ,再 在 数据 分 析 时 
降低 其 权重 (Ranger et al., 2019; Rios et al., 2017)。 
降低 权重 部 分 最 极端 和 常用 的 方式 是 替换 为 缺失 
(e.g., Kóhler et al., 2017; Rose, 2013)。 识 别 部 分 较 
经 典 的 方法 是 标准 化 残 差 法 。 该 方法 将 观测 反应 时 
与 其 理论 分 布 比较 ,以 识别 反应 时 异常 短 的 不 努力 
作答 (Qian et al., 2016)。 标 准 化 残 差 法 的 优势 在 于 
背后 有 特定 的 理论 模型 (分 布 ), 不 需要 通过 观察 设 
定 阅 值 ， 也 不 存在 无 法 找到 阔 值 的 特例 ,可 以 自动 
化 大 批量 应 用 。 此 外 , van der Linden 和 Guo (2008) 
曾 提 出 贝 叶 斯 残 差 法 , 将 反应 时 观测 值 与 基于 作答 
反应 和 反应 时 计算 的 后 验 预测 密度 比较 ， 以 识别 不 
努力 作答 。 该 方法 与 标准 化 残 差 法 都 面临 着 参数 污 
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染 严 重 时 表现 差 的 问题 (Wang, Xu, Shang, & Kuncel, 
2018)。 最 近 ， 针 对 这 一 缺陷 , Liu 和 Liu (2021) 采 用 
筛选 努力 作答 群体 估计 题目 参数 ,固定 题目 参数 并 
迭代 净化 的 策略 改进 标准 化 残 差 法 的 表现 ， 提 出 了 
固定 参数 迭代 标准 化 残 差 法 ,并 得 到 了 较 好 的 效果 。 

在 模型 中 处 理 主要 指使 用 混合 模型 ， 区 分 努力 
作答 和 不 努力 作答 的 数据 ,并 分 别 采 用 不 同 的 模型 
拟 合 (Molenaar et al., 2018; Wang & Xu, 2015; Wang, 
Xu, & Shang., 2018; Wise & DeMars, 2006)。 与 识别 
并 降低 权重 的 两 阶段 方法 相 比 , 混合 模型 能 够 一 次 
性 解决 不 努力 作答 识别 及 参数 估计 的 问题 。 并 且 ， 
贝 叶 斯 估计 的 马尔 科 夫 链 蒙 特 卡 洛 (Markov Chain 
Monte Carlo, MCMC) 算 法 的 发 展 ， 较 好 地 解决 了 这 
类 模型 参数 估计 的 问题 。 混 合 模型 中 最 有 代表 性 的 
方法 是 由 Wang 和 Xu (2015) 基 于 van der Linden 
(2007) 的 多 层 模 型 提出 的 混合 多 层 模型 (mixture 
hierarchical model, MHM)。 它 的 主要 思想 是 根据 两 
种 作答 行为 的 特点 ， 对 总 体 的 作答 反应 模型 和 反应 
时 模型 进行 分 解 。 模 拟 研 究 证 明 ， 当 数据 中 同时 含 
有 努力 作答 与 不 努力 作答 时 , MHM 相 比 于 传统 多 
层 模型 能 够 得 到 更 准确 的 参数 估计 结果 (Wang & 
Xu, 2015)。Wang, Xu, Shang 和 Kuncel (2018) 还 采 
用 模拟 研究 ， 对 贝 叶 斯 残 差 法 和 MHM 进行 了 比 
Be 结果 表明 MHM 在 正确 识别 率 和 错误 拒绝 率 上 
表现 都 较 好 ,特别 是 当 异 常 作答 的 比例 较 高 时 ,该 
模型 的 优势 更 加 明显 。 后 来 的 研究 者 在 MHM 基础 
上 又 进行 了 一 系列 拓展 研究 (Lu et al., 2020; Ulitzsch 
et al., 2020; Wang, Xu, & Shang., 2018)。 总 的 来 说 ， 
MHM 最 大 的 优势 在 于 能 够 同时 完成 异常 反应 的 识 
别 和 模型 参数 的 估计 。 但 是 , 该 方法 主要 有 三 个 局 
限 性 : 一 是 包含 关于 不 努力 作答 正确 率 和 反应 时 分 
布 的 强 假设 ， 如 果 不 满足 ， 可 能 无 法 得 到 准确 的 识 
别 结果 ; 二 是 不 努力 作答 比例 较 低 时 容易 出 现 问题 ， 
例如 ， 当 不 努力 作答 的 比例 或 者 样本 量 较 小 时 ， 有 
时 很 难得 到 收敛 的 结果 (Ranger et al., 2019); 三 是 
计算 复杂 耗 时 长 。 总 的 来 说 , 关于 混合 模型 的 研究 
基本 上 都 以 Wang 和 Xu (2015) 的 混合 多 层 模 型 为 
基础 展开 ， 因此， 本 研究 也 关注 该 模型 和 标准 化 残 
差 系 列 方法 的 比较 。 

尽管 标准 化 残 差 法 和 混合 多 层 模型 法 作为 两 
种 处 理 思路 的 代表 ， 具 有 不 同 的 优 缺 点 和 适用 条 件 ， 
但 是 目前 对 这 两 类 方法 进行 系统 比较 的 模拟 和 应 
用 研究 仍 较 少 ， 且 选用 的 残 差 法 没 能 反映 该 方法 最 
新 的 研究 进展 (Liu & Liu，2021)。 虽 然 Wang, Xu, 


Shang 和 Kuncel (2018) 的 研究 对 贝 叶 斯 残 差 法 和 混 
合 多 层 模 型 法 进行 了 比较 。 但 是 , 该 研究 也 存在 一 
些 局 限 性 。 首 先 ， 研 究 中 设置 的 基于 残 差 模型 产生 
数据 的 情境 ， 仅 违背 了 混合 多 层 模型 中 关于 反应 时 
模型 的 假设 ， 而 不 努力 作答 的 答对 概率 仍 符合 其 假 
设 , 因此 并 不 能 算 作 反 应 时 和 作答 反应 均 违 背 其 假 
设 的 情况 。 其 次 ， 贝 叶 斯 残 差 法 本 身 计算 较 复 杂 且 
在 实际 中 很 少 应 用 ， 此 外 ,该 方法 与 标准 化 残 差 法 
同样 面临 在 数据 污染 严重 情况 下 表现 差 的 问题 。 新 
的 固定 参数 迭代 标准 化 残 差 法 (Liu & Liu, 2021) 相 
对 于 贝 叶 斯 残 差 法 计算 和 原理 都 更 为 简单 ， 其 能 否 
弥补 传统 方法 的 缺陷 ,得 到 与 MHM 相近 甚至 更 好 
的 结果 ? 由 于 固定 参数 迭代 标准 化 残 差 法 相 比 
MHM 前 提 假 设 较 少 ， 其 是 否 具 有 更 好 的 稳健 性 ， 
也 是 方法 的 理论 和 实践 研究 关注 的 焦点 。 目 前 ， 尚 
未 有 研究 系统 比较 标准 化 残 差 系列 方法 和 混合 多 
层 模型 法 。 因 此 ， 两 类 方法 在 不 同 条 件 下 的 表现 和 
效率 ,是 本 研究 关注 的 主要 问题 。 

本 文 首 先 回 顾 了 3 种 标准 化 残 差 法 和 Wang 和 
Xu (2015) 的 混合 多 层 模 型 法 ,然后 分 别 构造 了 产 
生 数 据 完 全 符合 、 反 应 时 和 作答 反应 均 不 符合 混合 
多 层 模 型 假设 的 两 种 情境 。 采 用 模拟 研究 的 方法 ， 
在 不 同 条 件 下 对 两 类 方法 识别 和 参数 估计 结果 的 
准确 性 进行 比较 ， 以 期 能 够 对 各 方法 的 优 缺 点 和 适 
用 范围 有 更 深入 的 认识 , 为 实际 应 用 者 提供 方法 选 
择 的 建议 。 另 外 ,研究 还 将 两 类 方法 应 用 于 一 项 测 
验 的 实际 数据 ， 对 模拟 研究 的 结果 进行 了 进一步 印 
证 与 补充 。 
2 标准 化 残 差 系列 方法 

原始 标准 化 残 差 法 (original standard residual 
method，OSR) 首 先 基 于 原始 数据 , 应 用 van der 
Linden (2007) 的 多 层 模型 估计 参数 。 该 模型 包括 两 
个 水 平 , 第 一 水 平 是 测量 模型 , 包括 作答 反应 部 分 
的 IRT(Item response theory) 模 型 : 
exp(a, (8 -5;)) 
1+exp(a; (6 -b;) | 
和 反应 时 部 分 的 标准 对 数 正 态 分 布 模型 ; 

In(t; ir; ~ N(B;— n.o). (2) 

其 中 ， P(Y; - 1o) 表示 被 试 i(i= 1,…, DEW H jG = 
1…，J]) 上 正确 作答 的 概率 ， 与 表示 被 试 工 在 题目 7 
上 的 反应 时 ，aj; 和 4b; 分 别 是 题目 j 的 区 分 度 参数 和 
WES, A 表示 题目 / 的 时 间 密 度 参数 ，c, 表示 


5 


P(Y, =1|0,)= (1) 
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题目 j 的 时 间 区 分 度 参 数 , NC) 表 示 正 态 分 布 ，& 和 
zi 是 被 试 i 的 能 力 参数 和 速度 参数 。 

在 第 二 水 平 (个 体 水 平 ), 假设 被 试 参数 (0, 0) 
服从 二 元 正 态 分 布 , 能 力 和 速度 参数 的 均值 为 
(Lip. Hp). 能 力 参数 的 方差 为 03 ， 速 度 参数 的 方差 
为 o? ,能力 和 速度 参数 的 协 方差 为 09, 。 

然后 , 计算 被 试 i 在 题目 j 上 的 标准 化 反应 时 
残 差 


ê; = à (nt) -(B, -2)). (3) 

根据 标准 化 反应 时 残 差 服 从 标准 正 态 分 布 

e; ~ N (0,1) 进行 判断 ， 基 于 显著 性 水 平 为 0.05 的 标 
准 正 态 分 布 左 侧 检 验 ， 如 果 6 < -1.645， 则 认为 
被 试 i 在 题目 i 上 是 不 努力 作答 (Qian et al., 2016). 
当 数 据 污染 严重 时 , 为 改进 OSR 对 题目 参数 估 

计 不 准确 的 问题 固定 参数 标准 化 残 差 法 (conditional 
estimate standard residual, CSR) 建 议 首先 通过 混合 
模型 ， 筛 选 努 力作 答 群 体 , 并 基于 该 群体 获得 较 准 
确 的 题目 参数 估计 结果 。 然 后 将 题目 参数 固定 ， 对 
被 试 参数 进行 条 件 估 计 。 最 后 ， 基 于 这 些 参数 估计 
结果 ,应 用 OSR 识别 不 努力 作答 (Liu et al., 2020)。 
国定 参数 迭代 标准 化 残 差 法 (conditional 


estimate with fixed item parameters standard residual 


method using iterative purifying procedure, CSRD) 在 
CSR 的 基础 上 不 断 应 用 迭代 净化 过 程 ， 提 高 被 试 参 
数 估计 准确 性 ， 以 适用 于 数据 污染 严重 的 情况 (Liu 
& Liu, 2021). 

在 使 用 OSR, CSR 和 CSRI 之 后 ， 需 将 识别 出 
的 不 努力 作答 记 为 缺失 ， 基 于 van der Linden (2007) 
的 多 层 模 型 重新 估计 所 有 参数 值 。 
3 混合 多 层 模型 法 

混合 多 层 模型 (MHM) 根 据 努 力作 答 和 不 努力 
作答 的 特点 ， 对 总 体 的 作答 反应 模型 和 反应 时 模型 
作 分 解 (Wang & Xu, 2015). 

在 作答 反应 模型 部 分 , 假设 被 试 i 在 题目 7 上 
答对 的 概率 为 

P(r, - Vy) - (L7 Ay) P(f, «y -0)* 


A,P(¥, =A, =1), (4) 


Hop, Ay 是 表示 作 管 行为 分 类 的 潜 变 量 ，A; =1 表 
未 被 试 i 回 答题 目 j 是 不 努力 作答 ，A; = 0 表示 是 努 
力作 答 。 如 果 A; =0, 可 使 用 两 参数 logistic(2PL) 
模型 预测 努力 作 管 的 答对 概率 ( 见 公式 (1))。 如 果 被 
试 i 回答 题目 j 是 不 努力 作答 (Ay =1)， 则 答对 概率 


JÆ gjo BI 

PLY, =A e) og» (5) 

在 反应 时 模型 部 分 , 假设 被 试 i 在 题目 j, 上 观 

察 到 的 反应 时 2^5 可 以 表示 为 

Tp” - (1- A5); +AyCy, (6) 
其 中 ，T 表 示 被 试 i 努力 作答 题目 j 所 需要 的 时 间 ， 
C; 表示 被 试 i 不 努力 作答 题目 j 所 需要 的 时 间 。 努 
力作 答 的 反应 时 服从 对 数 正 态 分 布 ( 见 公 式 (2))。 假 
定 不 努力 作答 的 反应 时 也 服从 对 数 正 态 分 布 

In(C;) - N(u..o? ). (7) 
其 中 ，j 表示 不 努力 作答 反应 时 对 数 正 态 分 布 的 
均值 ，o? 表示 分 布 的 方差 。 

在 实际 中 , 不 努力 作答 部 分 模型 所 包含 的 强 假 

设 可 能 会 遭 到 违背 。 具 体 表现 在 ,第 一 , 该 模型 假 
设 异常 作答 的 正确 率 为 a;， 即 所 有 被 试 在 同一 道 
题 上 不 努力 作答 的 答对 概率 是 相同 的 。 但 是 
Feinberg 和 Jurich (2018) 发 现 , 不 同 能 力 水 平 被 试 
在 相同 题目 上 不 努力 作答 的 正确 率 不 同 。 第 二 , 该 
模型 假设 不 努力 作答 行为 的 反应 时 服从 均值 和 标 
准 差 恒定 的 对 数 正 态 分 布 。 然 而 实际 中 不 努力 作答 
的 反应 时 可 能 和 被 试 因素 (例如 ， 学 业 能 力 、 作 答 速 
BEAR), 或 者 题目 因素 (例如 , 题目 位 置 , 题 型 等 ) 相 
关 (e.g., Molenaar et al., 2018)。 


4 ”研究 d: 标准 化 残 差 系 列 方法 与 
混合 多 层 模型 法 比较 的 模拟 研究 


4.1 研究 方法 
41.1 ”研究 设计 

模拟 研究 共 含 两 种 情境 。 情 境 1, 数据 符 合 混 
合 多 层 模型 假设 ; 情境 2, 不 努力 作答 的 反应 时 和 
作答 反应 均 不 符合 混合 多 层 模型 假设 。 每 种 情境 都 
采用 混合 实验 设计 , 组 内 变量 为 OSR, CSR, CSRI 
和 MHM. 

对 于 情境 1, 组 间 变 量 有 3 个 : (1) 不 努力 作答 
规模 (x ,含有 不 努力 作答 的 被 试 所 占 比 例 ): 096, 
20%, 40%; (2) 不 努力 作答 严重 性 ( zr”，, SARS 
力作 答 被 试 的 不 努力 作答 题目 比例 ): 低 
(z;^"-U(0,0.25)), f 77°" ~U (0.5, 0.75) ); (G3) 两 种 
作答 反应 时 差异 (drr ,不 努力 作答 与 努力 作答 的 
反应 时 差异 ): 小 , Ko 不 努力 作答 规模 x = 096 表示 
所 有 被 试 在 所 有 题目 上 均 努 力作 答 , 设置 该 水 平 是 
为 了 考察 在 没有 不 努力 作答 的 条 件 下 , 各 方法 可 能 
存在 的 超 识 别 问 题 。 根 据 x A oo?" HZ, AE 
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据 中 不 努力 作答 的 比例 覆盖 了 0%, 2.5%, 5%, 
12.5% 和 25% 几 种 情况 。 组 间 变 量 共 形成 2x2x2+1 = 
9 种 模拟 实验 条 件 。 

对 于 情境 2， 由 于 不 努力 作答 的 反应 时 基于 残 
差 模型 生成 ,无 法 从 整体 上 控制 两 种 作答 反应 时 均 
值 的 差异 ， 因 此 不 考虑 dap 。 男 外 ，x = 0% 的 数据 
产生 方式 与 情境 1 完全 相同 。 因 此 , 情境 2 中 考虑 
的 组 间 变 量 包括 :(1)x :20%, 4096; (2) 2" fI, 高 。 
组 间 变 量 共 形 成 2x2 = 4 种 模拟 实验 条 件 。 

参照 前 人 研究 , 模拟 研究 的 样本 容量 固定 为 
2000, 题目 数 固定 为 30 (Wang & Xu, 2015; Wang, 
Xu, & Shang., 2018; Wang, Xu, Shang, & Kuncel, 2018). 
4.1.2 SE EX 

题目 参数 产生 值 的 分 布 为 aj ~U (12.5), b; ~ 
N (0,1), æ; ~U(1.5,2.5), B, ~U(-0.2,0.2)。 这 些 分 布 
的 选择 保证 了 产生 的 作答 反应 和 反应 时 与 真实 数 
据 类 似 (van der Linden, 2007; Wang & Xu, 2015; 
Wang, Xu, Shang, & Kuncel, 2018)。 被 试 参数 (0.,7;) 
产生 于 二 元 正 态 分 布 ， 两 个 参数 的 均值 都 是 0, 方 
差分 别 为 1 和 0.25， 协 方差 为 0.25。 采 用 这 种 方式 ， 
能 够 保证 0 FU c; 的 相关 固定 为 中 等 水 平 ， 即 高 能 
被 试 倾 向 于 作答 速度 较 快 (Wang & Xu, 2015; Wang, 
Xu, & Shang., 2018; Wang, Xu, Shang, & Kuncel, 
2018)。 下 面 分 不 同情 境 介绍 数据 生成 的 具体 方式 。 

(1) 情 境 1 

Tic, 利用 题目 参数 和 被 试 参 数 的 真 值 ， 基 于 
van der Linden (2007) 的 多 层 模 型 模拟 生成 努力 作 
答 的 作答 反应 和 反应 时 。 然 后 生成 不 努力 作答 数据 ， 
包含 以 下 步 又: (a) 基 于 Xx 选 出 相应 数量 的 被 试 。 
为 速度 较 慢 的 被 试 倾向 于 猜测 作答 (不 努力 作答 )， 
因此 ， 从 真实 速度 zc 最低 33% 的 被 试 中 随机 选择 
60% 的 被 试 ， 中 间 34% 的 被 试 中 随机 选择 30% 的 被 
试 , 最 高 33% 的 被 试 中 随机 选择 10% 的 被 试 ， 作 为 
含有 不 努力 作答 的 被 试 群体 (Wang, Xu, & Shang., 
2018); (b) 由 于 不 努力 作答 可 能 随机 发 生 在 任何 题 
目 上 (Pastor et al., 2019), 根据 77°", XIF z PR 
试 随机 选择 相应 数量 的 不 努力 作答 (Wang, Xu, & 
Shang., 2018); (c) 对 所 有 不 努力 作答 ,参考 Wang 和 
Xu (2015)， 将 答对 概率 (8g)) 均 设 定 为 0.25, 模拟 产 
生 作答 反应 ; 按照 取 自 然 对 数 后 的 反应 时 服从 正 态 
分 布 N( 人 ,ca3) 模拟 产生 反应 时 (Liu & Liu, 2021), 
对 两 种 作答 反应 时 差异 小 和 大 两 种 情况 ,不 努力 作 
答 反应 时 取 对 数 后 的 分 布 分 别 服从 N (71, 0.57) REN 
(-2, 0.5”)。 最 后 , 使 用 不 努力 作答 的 作答 反应 和 反 


应 时 替换 原 有 数据 中 相应 位 置 的 数据 。 

(2) 情 境 2 

情境 2 和 情境 1 的 区 别 在 于 生成 不 努力 作答 数 
据 的 方式 。 对 于 作答 反应 ， 基 于 Feinberg 和 Jurich 
(2018) 的 发 现 ,不同 能 力 水 平 被 试 快 速 猜测 的 正确 
率 不 同 ， 能 力 高 的 被 试 正 确 率 高 于 能 力 低 的 被 试 。 
因此 ， 按 能 力 值 将 被 试 分 为 3 组 ， 分 别 为 能 力 值 小 
于 -0.44， 能 力 值 介 于 -0.44 到 0.44 之 间 , 能 力 值 大 
于 0.44 (每 组 被 试 约 占 1/3), 每 组 对 应 不 努力 作答 的 
答对 概率 分 别 为 0, 0.25 和 0.5。 因 此 , 情境 2 不 符 
合 混合 多 层 模 型 关于 不 同 被 试 不 努力 做 答 答 题 概 
率 相同 的 假设 。 产 生 不 努力 作答 反应 时 的 步骤 为 
(Wang, Xu, Shang, & Kuncel, 2018): (a) 基 于 反应 时 
服从 对 数 正 态 分 布 的 假设 , 利用 时 间 密 度 参数 、 时 
间 区 分 度 参数 的 真 值 对 于 速度 为 0 的 被 试 , 计算 
每 道 题目 反应 时 取 自 然 对 数 后 最 低 5% 的 临界 值 
(e.g.， 对 于 题目 j ITA BRUN (b) 对 于 题目 j, 在 


v [exp(-5),exp( 硬 加 的 区 间 内 随机 取 一 个 什 作 


为 不 努力 作答 的 反应 时 。 此 时 不 努力 作答 的 反应 时 
符合 残 差 模型 ， 可 以 被 看 作 整 个 反应 时 分 布 中 的 异 
Ha. (Ae, SSE 1 f, 它们 的 分 布 不 满足 对 
数 正 态 分 布 ， 因 此 不 符合 MHM 的 假设 。 

采用 蒙特 卡 洛 模拟 研究 的 方法 , 使 用 R 软件 (R 
Development Core Team，2009) 产 生 两 种 情境 不 同 
条 件 下 的 作答 反应 和 反应 时 数据 ， 每 种 条 件 下 数据 
重复 模拟 30 次 (e.g., Lu et al, 2020; Wang, Xu, 
Shang, & Kuncel, 2018). 
413 ”参数 估计 

参考 前 人 研究 (Lu et al., 2020; Wang & Xu, 
2015; Wang, Xu, & Shang, 2018; Wang, Xu, Shang, 
& Kuncel，2018)， 研 究 应 用 贝 叶 斯 框架 下 基于 
Gibbs 抽样 的 MCMC 算法 估计 参数 后 验 分 布 ,进而 
计算 后 验 均值 得 到 参数 的 点 估计 值 。 这 一 过 程 利 用 
JAGS 4.3.0 软件 自 编 语句 实现 (Plummer 2003)。 

对 于 MHM， 先 验 分 布 的 设置 参考 了 前 人 研究 
(Wang, Xu, & Shang, 2018; Wang, Xu, Shang, & Kuncel, 
2018)。 努 力作 答 部 分 题目 参数 的 先 验 分 布 为 : 
a; ~ lognormal (0,1), b; ~ N(0,1), a; ~ lognormal (0,1), 
B, ~ N (0,1); 不 努力 作答 部 分 题目 参数 的 先 验 分 布 
为 gj ~ beta(2,10), u. ~ N(-3,0.1), 07 ~ Inv—y(10,0.1) ; 
被 试 参数 采 用 与 产生 值 相同 的 分 布 。 对 于 OSR, 
CSR 和 CSRI, fj van der Linden (2007) 的 多 层 模 
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型 时 先 验 分 布 的 设置 与 MHM 中 努力 作答 部 分 模型 
参数 的 先 验 分 布 一 致 。 和 迭代 的 初始 值 在 每 个 参数 先 
验 分 布 中 随机 抽取 样本 得 到 。 经 过 前 期 试验 得 到 正 
式 研 究 的 MCMC 迭代 设置 参数 。MCMC 链条 数 固 
定 为 2, 每 条 链 的 迭代 次 数 为 10000,， 前 面 5000 次 
作为 burn-in, thinning rate 固定 为 5。 由 于 MHM $X 
复杂 ,试验 发 现在 原 有 设置 基础 上 即使 增加 和 迭代 次 
数 ,收敛 情况 也 不 会 有 明显 改变 ， 且 每 次 估计 时 间 
已 长 达 9 小 时 ,因此 出 于 估计 效率 的 角度 ,迭代 设 
置 参数 仍 保持 原 有 设置 。 采 用 PSRE < 1.1 作为 判断 
每 条 链 收 敛 的 标准 (Gelman & Rubin, 1992; Matzke 
et al., 2017)。 
4.1.4 评价 标准 

研究 从 三 个 方面 对 两 种 不 同类 型 的 方法 进行 
比较 。 

CEHE ot 

根据 PSRF 指标 , Sit f 47r Bex 
的 收敛 比例 。 

(2) 识 别 准确 性 

评价 识别 准确 性 的 指标 分 为 基于 不 努力 作答 
的 正确 识别 率 (true positive rate，TPR) 和 错误 识别 
率 (false discovery error, FDR). TPR 是 指正 确 识别 
的 不 努力 作答 占 真正 不 努力 作答 的 比例 , FDR 是 指 
错误 识别 的 不 努力 作答 ( 即 真 正 的 努力 作答 ) 占 所 有 
识别 出 的 不 努力 作答 的 比例 。 由 于 研究 目的 是 识别 
不 努力 作答 ,因此 ，TPR 越 高 , 说 明 识 别 出 的 不 努 
力作 答 越 全 ， 越 有 利于 得 到 准确 的 参数 估计 结果 。 
基于 这 一 目的 , 在 评价 识别 准确 性 时 ， 以 TPR 为 主 
要 依据 。 另 外 ， 当 模拟 数据 中 不 存在 不 努力 作答 时 
(z=0%), 无 法 计算 TPR, 而 FDR 始终 为 1, 在 这 
种 情况 下 计算 误 检 率 (false positive rate, FPR), Ef 
错误 识别 出 的 不 努力 作答 占 所 有 努力 作答 的 比例 ， 
类 似 于 第 I 类 错误 概率 。 最 后 , 计算 了 各 方法 在 各 
条 件 下 识别 出 的 不 努力 作答 占 所 有 作答 的 比例 
(proportion, Pr). 

(3) 参 数 估计 结果 准确 性 

研究 使 用 偏差 (bias) 和 误差 均 方 根 (RMSE) 评 价 
参数 估计 的 返 真 性 ,计算 公式 如 下 


=D (0,-60), (8) 


BN f ELOGE Fa ABR h =j, 对 于 被 试 参 数 h = 
i), H cKoR EL CE UH. = JN) LIA BORE (A = D, L = 
30 表示 每 种 条 件 下 的 重复 次 数 。 
4.2 ”模拟 研究 结果 
4.2.1 ”参数 收敛 结果 

OSR, CSR 和 CSRI 在 所 有 重复 中 所 有 参数 全 
部 收敛 。MHM 存在 一 定 程度 的 不 收敛 问题 。 各 条 
件 下 MHM 不 收敛 的 比例 如 表 1 所 示 。 


表 1 各 条 件 下 MHM 不 收敛 百分比 (%) 


MUR s dy CORA ERA RR aij 
参数 (Ay) BH BR 

情境 1 0% 0.05 0.00 0.00 — 0.05 

20% 低 小 15.83 0.00 0.00 14.80 

X 11.70 0.00 | 0.00 10.94 

高 小 11.10 0.00 0.00 10.38 

X 12.11 0.00 0.01 11.33 

40% 低 小 12.88 0.00 0.00 12.04 

X 12.73 0.00 | 0.00 11.91 

高 小 9.30 0.00 0.00 8.70 

X 13.15 0.00 0.00 12.30 

情境 2 20% 低 16.75 0.00 0.00 15.67 

高 15.53 0.00 0.00 14.52 

40% 低 7.08 0.00 0.00 6.62 

高 11.93 0.00 | 0.00 11.15 


TE: xz 表 示 不 努力 作答 规模 ，zxr” 表示 不 努力 作答 严重 性 ，dpy 
表示 两 种 作 管 反应 时 差异 , 后 同 。 合 计 是 指 不 收敛 参数 占 所 有 
估计 参数 的 百分比 。 


从 表 1 可 以 看 出 ， 只 有 作答 分 类 参数 存在 不 收 
敛 问 题 。 其 中 ,在 全 部 努力 作答 的 条 件 下 , 不 收敛 
比例 最 低 , 为 0.05%, 在 zx=20%，x” 低 的 条 件 下 ， 
不 收敛 比例 最 高 ,为 14.80% (情境 1, dep 小 ) 和 
15.67% (情境 2)。 整 体 来 看 ,情境 2 中 不 收敛 百 分 
比 要 大 于 情境 1。 

以 下 的 识别 准确 性 和 参数 估计 结果 准确 性 评 
价 指 标 仅 针对 所 有 收敛 参数 计算 。 
4.2.2 ”识别 准确 性 结果 

表 2 呈 现 了 不 同 条 件 下 各 方法 的 识别 准确 性 结 
果 的 均值 。 从 表 中 可 以 看 出 ， 当 不 含有 不 努力 作答 
时 ，MHM 估计 得 到 的 作答 分 类 参数 均 为 1 个 类 别 ， 
而 标准 化 残 差 系列 方法 的 FDR 约 为 5%。 从 TPR 
来 看 ， 几 乎 所 有 条 件 下 CSRI 的 TPR 都 大 于 MHM。 
在 大 部 分 条 件 下 , MHM 的 TPR HRR 7" BS, 
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dap ÈK, CSRI 相对 其 他 残 差 法 的 优势 越 大 , MHM 
的 表现 也 越 来 越 好 。 总 的 来 看 , 情境 2 中 MHM 在 
TPR 上 的 均值 小 于 情境 1, 标准 化 残 差 系列 方法 则 
相对 稳定 。 各 条 件 下 MHM 的 FDR 均 最 小 , CSRI 
的 FDR 均 最 大 。MHM 所 识别 出 的 不 努力 作答 的 比 
例 大 多 小 于 CSRI, 这 也 反映 在 该 方法 呈现 出 较 低 
的 TPR 和 FDR。 


表 2 各 条 件 下 各 方法 识别 准确 性 指标 结果 
情境 元 7" dw 指标 OSR CSR CSRI MHM 


情境 1 096 FPR 0.05 0.05 0.06 0.00 
20% 低 ”小 TPR 0.59 0.59 0.69 0.39 
(0.025) FDR 0.69 0.69 0.71 0.20 


Pr 0.05 0.05 0.06 0.01 

大 TPR 0.91 0.91 0.97 0.87 

FDR 0.47 0.49 0.53 0.09 

Pr 0.04 0.04 0.05 0.02 

高 ”小 TPR 0.19 0.25 0.50 0.03 
(0.125) FDR 0.48 0.54 0.43 0.08 
Pr 0.04 0.07 0.11 0.00 

大 TPR 0.31 0.50 0.93 0.82 

FDR 0.16 0.36 0.28 0.07 

Pr 0.05 0.10 0.16 0.11 

40% 低 小 TPR 0.55 0.55 0.65 0.51 
(0.050) FDR 0.46 0.45 0.47 0.20 
Pr 0.05 0.05 0.06 0.03 

大 TPR 0.87 0.87 0.94 0.91 

FDR 0.17 0.16 0.18 0.09 

Pr 0.05 0.05 0.06 0.05 

高 ”小 TPR 0.13 024 0.49 0.16 
(0.250) FDR 0.23 0.31 0.23 0.10 
Pr 0.04 0.09 0.16 0.05 

大 TPR 0.17 049 0.93 0.94 

FDR 0.03 0.17 0.14 0.07 

Pr 0.04 0.15 0.27 0.25 


情境 2 20% 低 TPR 0.77 0.78 0.90 0.64 
(0.025) FDR 0.52 0.53 0.55 0.10 

Pr 0.04 0.04 0.05 0.02 

高 TPR 0.27 0.34 0.72 0.18 

(0.125) FDR 0.17 0.35 0.24 0.01 

Pr 0.04 0.07 0.12 0.02 

40% {fk TPR 0.70 0.69 0.82 0.73 
(0.050) FDR 0.22 0.21 022 0.11 

Pr 0.04 0.04 0.05 0.04 

高 TPR 0.20 0.29 0.56 0.13 

(0.250) FDR 0.02 0.10 0.06 0.00 


Pr 0.05 0.08 0.15 0.03 
TE: TPR 表示 正确 识别 率 , FDR 表示 错误 识别 率 , FPR 表示 误 检 


中 括号 内 数字 表示 真实 不 努力 作答 的 
每 种 条 件 下 TPR 最 高 的 结果 。 


4.2.3 ”参数 估计 结果 

表 3、 表 4 和 表 5 分 别 展 示 了 情境 1、 人 情境 2 
中 各 条 件 下 各 方法 得 到 的 参数 估计 准确 性 结果 。 从 
表 中 看 出 ， 当 不 含有 不 努力 作答 时 , MHM 得 到 的 
各 参数 估计 值 RMSE 普遍 较 小 , 标准 化 残 差 系列 方 
法 除了 高 估 时 间 区 分 度 参 数 外 ， 其 他 参数 估计 值 
RMSE 也 较 小 。 在 zw?” 低 的 条 件 下 ,各 方法 得 到 的 
参数 估计 结果 准确 性 差异 不 大 , 但 是 , 除了 x = 
4096, dar 大 的 条 件 下 两 类 方法 得 到 的 时 间 区 分 度 
参数 RMSE 较为 接近 ,其 余 条 件 下 MHM 得 到 的 时 
间 区 分 度 参 数 RMSE 均 明 显 小 于 标准 化 残 差 系列 
方法 。 总 的 来 说 , 方法 之 间 的 差异 主要 体现 在 m; 
高 的 条 件 下 ， 当 dy 小 时 ，CSRI 得 到 的 参数 估计 结 
果 准 确 性 具有 一 定 优 势 ， 当 du, 大 时 ，CSRI 和 
MHM 得 到 的 参数 估计 结果 准确 性 都 具有 更 加 明显 
的 优势 。 
表 3 情境 1 中 不 含 不 努力 作答 条 件 下 各 方法 参数 估计 


准确 性 

评价 标准 ”方法 OSR CSR CSRI MHM 
bias a -0.01 -0.01 —0.01 0.01 
b 0.00 0.00 0.00 0.00 

a -0.21 一 0.22 —0.26 0.00 

B -0.07  —0.07 —0.08 0.02 

0 0.00 | -0.01 —0.01 0.01 

D -0.01 -0.01 -0.01 0.02 

RMSE a 0.11 0.11 0.11 0.10 
b 0.05 0.05 0.05 0.05 

a 0.22 0.22 0.27 0.03 

B 0.07 0.07 0.08 0.02 

0 0.29 0.29 0.29 0.28 

T 0.10 0.10 0.11 0.09 


YE: bias 表示 偏差 , RMSE 表示 误差 均 方 根 , 后 同 。 


从 表 5 可 以 看 出 , 在 情境 2 A, "IR ARE 
F, MHM 得 到 的 区 分 度 参数 RMSE 大 于 标准 化 残 
差 系列 方法 ， 时 间 区 分 度 参数 RMSE 小 于 标准 化 残 
差 系列 方法 ， 此 时 , MHM 会 高 估 区 分 度 参 数 , CSRI 
会 高 估 时 间 区 分 度 参 数 ; 在 到 ”高 的 条 件 下 , 标准 
化 残 差 系列 方法 得 到 的 参数 估计 值 RMSE 整体 上 
都 小 于 MHM, Jf H zig X, CSRI 优势 越 明 显 。 此 
9h, MHM 普遍 存在 低估 时 间 区 分 度 参数 和 时 间 密 
EBM, E r = 4096,27" 高 的 条 件 下 ,还 存 
在 高 估 区 分 度 参数 和 难度 参数 的 问题 。 总 的 来 说 ， 
MHM 在 情境 2 中 的 表现 比 情境 1 差 , 标准 化 残 差 
系列 方法 具有 更 大 的 相对 优势 。 
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表 4 情境 1 中 含有 不 努力 作答 条 件 下 各 方法 参数 估计 准确 性 


评价 oy SENE RUE 
标准 g drr 小 air 大 drr 小 drr 大 
OSR CSR CSRI MHM OSR CSR CSRI MHM OSR CSR CSRI MHM OSR CSR CSRI MHM 
20% bias a 0.05 0.05 0.04 -0.03 0.01 0.01 0.00 -0.02 0.24 0.24 0.20 0.20 0.20 0.18 0.04 -0.03 
b 0.01 —0.01 0.01 0.01 0.01 —0.01 0.00 -0.01 -0.12 -0.12 -0.09 -0.13 -0.13 -0.08 -0.02 -0.03 
a —0.15 -0.15 -0.19 0.01 0.10 —0.11 0.14 -0.01 0.08 0.01 -0.16 0.24 0.24 0.20 -0.21 0.05 
p 0.05 —0.05 -0.06 -—0.01 0.04 —0.04 -0.05 —0.02 0.09 0.06 0.00 0.13 0.13 0.10 -0.05 0.03 
0 0.00 —0.01 0.01 0.01 0.01 —0.01 0.01 -0.01 0.00 0.00 0.00 0.00 0.00 0.00 -0.01 -0.01 
T 0.02 —0.01 0.01 0.02 -0.02 -0.02 -0.01 -0.02 -0.02 -0.01 -0.01 -0.02 -0.02 -0.02 -0.01 0.02 
RMSE a 0.13 0.13 0.12 0.12 0.11 0.11 0.11 0.11 0.39 0.38 0.31 0.36 0.33 028 0.13 0.13 
b 0.05 0.05 0.05 0.05 0.05 0.05 0.05 0.05 0.17 0.16 0.13 0.18 0.14 0.11 0.06 0.06 
a 0.15 0.15 0.20 0.04 0.11 0.11 0.15 0.04 0.12 0.06 0.17 0.26 0.40 022 0.22 0.07 
B 0.05 0.05 0.06 0.02 0.04 0.04 0.05 0.02 0.09 0.06 0.02 0.13 0.18 0.11 0.05 0.03 
0 0.30 0.30 0.30 0.29 0.29 0.29 0.29 0.29 0.43 0.42 0.40 0.43 0.41 0.40 0.34 0.35 
T 0.11 0.11 0.11 0.10 0.10 0.10 0.10 0.10 0.30 0.29 0.22 0.33 045 0.39 0.17 0.22 
4096 bias a 0.11 0.11 0.09 -0.07 0.03 0.04 0.02 -0.03 0.42 0.42 0.38 0.14 0.35 0.33 0.10 -0.06 
b 0.03 -0.03 -0.02 -0.02 -0.01 -0.01 0.01 -0.01 -0.25 -0.23 -0.19 -0.20 -0.22 -0.15 -0.03 -0.02 
a  —0.08 -0.08 -0.13 0.01 0.02 -0.02 -0.06 —0.02 0.30 0.18 -0.06 0.34 0.72 0.47 -0.18 -0.01 
p 0.03 —0.03 -0.04 —0.01 0.02 -0.02 -0.03 -0.02 0.24 0.19 0.08 0.22 0.47 0.28 -0.03 0.01 
0 0.00 0.00 -0.01 0.01 0.01 —0.01 0.01 -0.01 0.00 0.00 0.00 0.00 0.00 0.00 0.00 -0.01 
T 0.01 -0.02 -0.02 -0.02 -0.02 -0.02 -0.02 -0.02 -0.02 -0.02 -0.01 -0.02 -0.02 -0.02 -0.01 0.02 
RMSE a 0.17 0.17 0.15 0.14 0.12 0.12 0.11 0.12 0.59 0.57 0.50 0.32 0.53 0.45 0.17 0.16 
b 0.07 0.07 0.06 0.06 0.06 0.06 0.05 0.06 0.32 029 0.23 024 0.27 0.19 0.07 0.06 
a 0.09 0.09 0.14 0.04 0.05 0.05 0.07 0.04 0.33 021 0.08 0.37 0.75 0.49 0.19 0.05 
B 0.03 0.03 0.04 0.02 0.02 0.02 0.03 0.02 0.25 0.19 0.08 022 0.47 0.28 0.03 0.02 
0 0.31 0.31 0.31 0.30 0.30 0.30 0.29 0.29 0.53 0.52 0.48 0.50 0.52 0.48 0.39 0.37 


0.1 0.1] 0.11 011 0.10 0.10 0.10 0.10 0.39 0.36 0.28 0.37 0.61 0.49 0.21 0.18 
ik: 加 粗 的 表示 RMSE 相对 较 低 的 结 


a 


m5 情境 2 中 各 条 件 下 各 方法 参数 估计 准确 性 


zo WME 参数 b IM 

OSR CSR CSRI MHM OSR CSR CSRI MHM 

a 0.00 0.00 0.00 —0.08 -0.03 —0.02 0.04 —0.08 

b 0.00 0.00 0.00 0.00 -0.07 -0.07 -0.03 —0.07 

he: a -0.09 -0.10 -0.14 0.01 0.28 0.19 —0.08 0.37 

p -0.04 -0.04 -0.05 -0.01 0.15 0.12 0.01 0.18 

6 -0.01 -0.01 -0.01 -0.01 0.00 0.00 0.00 -0.01 

— " -0.02 -0.02 -0.02 -0.02 -0.02 -0.02 -0.02 -0.02 
a 0.11 0.11 0.11 0.14 0.17 0.17 0.14 0.18 

b 0.05 0.05 0.05 0.05 0.15 0.14 0.08 0.15 

a 0.10 0.10 0.15 0.04 0.30 0.21 0.10 0.38 

RMSE 

B 0.04 0.04 0.05 0.02 0.15 0.12 0.02 0.18 

6 0.29 0.29 0.29 0.29 0.34 0.34 0.34 0.34 

t 0.10 0.10 0.10 0.10 0.39 0.37 0.23 0.41 

a 0.02 0.02 0.02 -0.15 -0.07 -0.04 0.07 -0.12 

b -0.01 -0.01 -0.01 -0.01 -0.15 -0.14 -0.11 -0.15 

; a 0.00 0.01 -0.05 0.01 0.57 0.48 0.21 0.65 

bias B -0.01 -0.01 -0.02 -0.01 0.38 0.32 0.18 0.41 

6 -0.01 -0.01 -0.01 -0.01 0.00 0.00 0.00 0.00 

t -0.02 -0.02 -0.02 -0.02 -0.02 -0.02 -0.02 -0.02 
a 0.12 0.13 0.12 021 0.26 0.24 0.22 0.27 

b 0.06 0.06 0.05 0.05 0.27 0.25 0.17 0.29 

a 0.05 0.05 0.07 0.04 0.59 0.50 0.23 0.67 

RMSE 

B 0.02 0.02 0.03 0.02 0.38 0.32 0.18 0.41 

6 0.30 0.30 0.29 0.29 0.39 0.38 0.37 0.39 

" 0.11 0.11 0.10 0.11 0.51 0.47 0.36 0.54 


ik: 加 粗 的 表示 RMSE 相对 较 低 的 结果 。 
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5 研究 2: 标准 化 残 差 系列 方法 与 
混合 多 层 模型 法 比较 的 实证 研究 


51 数据 和 设计 

人 研究 2 使 用 James Madison 大 学 开发 的 自然 界 
管理 测验 测试 数据 ,该 测验 主要 测试 了 学 生 对 与 保 
护 环境 相关 的 管理 原则 、 问 题 和 实践 应 用 的 了 解 程 
度 (Pastor et al., 2019)。 使 用 OSR, CSR, CSRI 和 
MHM 对 不 努力 作答 进行 处 理 。 该 测验 采用 基于 网 
络 的 方式 施 测 , 测量 了 环境 管理 原则 、 问 题 和 实践 
知识 , 属于 低 利 天 测验。 测验 长 度 为 50 题 , 均 为 0/1 
计 分 的 选择 题 。 测 试 完成 后 ， 要 求 每 名 被 试 完 成 一 
个 关于 完成 测验 努力 程度 的 自 陈 量 表 。 自 陈 量 表 主 
要 包括 三 个 方面 内 容 : (1) 认 真 完 成 测验 重要 性 评价 ， 
分 值 越 高 表示 重要 性 程度 越 高 ; (2) 完 成 测验 努力 程 
度 评价 , 分 值 越 高 表示 花费 的 努力 程度 越 高 ; (3) 随 
机 猜测 比例 ， 即 在 完成 测验 时 随机 猜测 作答 题目 数 
量 的 百分比 有 4 个 选项 (0% ~ 5%, 6% ~ 25%, 
26% ~ 50%, KF 50%)。 自 陈 量 表 的 结果 能 够 提供 
不 努力 作答 识别 的 效 度 信 息 。 测 试 样本 为 James 
Madison 大 学 2014 ~ 2015 年 秋季 和 春季 学 期 的 学 
^E, 共 1532 人 。 删 除了 在 作答 反应 、 反 应 时 上 总 缺 
失 比 例 大 于 10% 的 被 试 ， 最 终 保 留 1367 人 。 应 用 
OSR, CSR 和 CSRI 分 别 识别 不 努力 作答 并 将 其 蔡 
换 为 缺失 ,基于 van der Linden (2007) 的 多 层 模型 
估计 参数 。 应 用 MHM 同时 完成 不 努力 作答 的 识别 
和 参数 估计 。 各 模型 先 验 分 布设 置 与 模拟 研究 相 
同 。 
5.2 ”实证 研究 结果 

实证 研究 所 采用 的 数据 来 自 于 一 个 低 利 害 测 
Js, 并 且 测 验 长 度 较 长 ， 预 估 可 能 出 现 较 严 重 的 不 
努力 作答 。 首 先 , 1367 名 学 生 选 择 随 机 猜测 比例 为 
0% ~ 595, 6% ~ 25%, 26% ~ 50% 和 大 于 50% 的 学 生 
比例 分 别 为 27.07%，41.92%，22.02% 和 9.00%。 可 
以 发 现 ,大 部 分 学 生 不 努力 作答 的 严重 性 程度 与 模 
拟 研究 中 不 努力 作答 严重 性 为 低 ( x? ~U (0, 0.25) ) 
的 情况 类 似 ， 还 有 部 分 学 生 不 努力 作答 严重 性 大 于 
这 个 条 件 。 其 次 , 发 现 所 有 被 试 在 所 有 题目 上 的 对 
数 反应 时 分 布 都 呈现 出 双 峰 分 布 的 特点 (Wang，Xu， 
Shang, & Kuncel, 2018)。 因 此 ,数据 中 可 能 存在 略 严 
重 的 不 努力 作答 现象 。 此 时 ,各 方法 得 到 的 结果 差 
异 应 当 略 大 , 采用 CSRI 或 MHM 可 能 是 较 好 的 选择 。 

MHM 参数 估计 不 收敛 比例 为 2.02%， 其 余 方 
法 参数 估计 全 部 收敛 。 后 面 结果 只 使 用 收敛 的 参数 


计算 ,OSR, CSR, CSRI 和 MHM 识别 的 不 努力 作答 
比例 分 别 为 4.69%, 5.40%, 6.58% 和 6.92%, CSRI 和 
MHM 识别 出 的 不 努力 作答 比例 最 大 。 
5.2.1 ”识别 结果 的 反应 时 分 布 比较 

图 1 以 一 道 题目 为 例 ， 展示 了 各 方法 识别 出 的 
两 种 类 型 作答 的 对 数 反 应 时 分 布 情况 。 从 图 中 可 以 
看 出 , OSR, CSR 和 CSRI 识别 不 努力 作答 的 检验 力 
依次 增强 。 例 如 , OSR 识别 出 的 两 种 作答 在 反应 时 
短 的 第 一 个 峰 的 分 布 中 有 很 大 的 重合 ， 而 CSRI 和 
MHM 几乎 能 将 第 一 个 峰 内 的 所 有 作答 识别 为 不 努 
力作 答 。 此 外 , MHM 还 会 将 对 数 反应 时 较 大 的 个 别 
作答 识别 为 不 努力 作答 ,这 是 由 于 该 方法 假设 不 努 
力作 答 的 反应 时 服从 均值 和 标准 差 恒 定 的 对 数 正 
态 分 布 ， 如 果 估 计 得 到 的 不 努力 作答 反应 时 标准 差 
较 大 (本 例 中 5，= 1.29), 个 别 识别 出 的 不 努力 作答 
可 能 具有 较 大 的 对 数 反 应 时 。 
5.2.2 ”识别 结果 的 效 度 验证 

为 了 对 各 方法 的 识别 结果 进行 效 度 验 证 , 将 各 
方法 得 到 的 作答 层面 识别 结果 通过 RTE (response 
time effort, RTE) 指 标 汇 总 到 个 体 层 面 ， 得 到 每 名 被 
试 的 RTE 指标 。RTE 指标 的 含义 是 每 个 被 试 努 力 
作答 的 题目 比例 。 其 值 越 高 ， 说 明 被 试 努 力作 答 程 
度 越 高 。 然 后 , 将 各 方法 的 RTE 指标 与 认真 完成 测 
验 重要 性 评价 、 完 成 测验 努力 程度 评价 的 分 数 求 相 
Ko 它们 与 RTE 指标 的 相关 越 高 ， 说 明 方 法 会 聚 效 
度 越 高 。 结 果 如 表 6 所 示 。 从 表 中 可 以 看 出 , OSR, 
CSR, CSRI 和 MHM 与 两 项 评价 的 相关 依次 增 大 ， 
说 明 其 会 聚 效 度 依次 增 大 。 但 是 注意 到 4 种 方法 得 
到 的 RTE 指标 与 认真 完成 测验 重要 性 评价 相关 均 
较 低 ( 低 于 0.1), 968] RTE 指标 不 同 的 被 试 , 在 认真 
完成 测验 的 重要 性 程度 评价 上 只 有 很 小 的 差异 。 这 
与 Pastor 等 人 (2019) 使 用 同样 数据 得 到 的 结果 是 一 
致 的 。 

结合 RTE 指标 的 阔 值 ， 可 以 区 分 努力 作答 和 
不 努力 作答 的 被 试 。 基 于 前 人 研究 建议 (Rios et al., 
2017) 并 出 于 保守 考虑 , 将 RTE WEEN 0.8. 然后 
统计 两 组 被 试 在 随机 猜测 比例 4 个 选项 上 的 选择 分 
布 情 况 。 从 表 7 可 以 看 出 , 努力 作答 组 选择 随机 猜 
测 比 例 大 于 50% 的 人 数 比 例 最 少 , 不 努力 作答 组 选 
择 随 机 猜测 比例 为 0~5% 的 人 数 比 例 最 少 , 符合 期 
望 的 各 组 特征 。 此 外 , CSRI 和 MHM 识别 出 的 努力 
作答 组 中 选择 随机 猜测 比例 大 于 50% 的 人 数 比 例 小 
于 另外 两 种 方法 ， 选 择 随 机 猜测 比例 为 0~5% 的 人 
数 比例 大 于 另外 两 种 方法 , 但 总 体 来 说 差异 不 大 。 
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| 类 型 | 类 型 
250r 下 不 努力 作答 250 T 不 努力 作答 
日 努力 作答 日 努力 作答 
200 - 200 - 
150+ 150 - 
E te 
š š 
100 - 100 - 
50 - 50 - 
0L 0L - 
0 2 4 0 2 4 6 
对 数 反应 时 计数 反应 时 
OSR CSR 
类 型 类 型 
250 上 C 不 努力 作答 
E 努力 作答 [| 努力 作答 
200 - 200 - 
150 - 150 + 
i tz 
š š 
100 - 100 - 
50 - 50 H 
0r 0r 
0 2 4 0 2 4 6 
对 数 反应 时 计数 反应 时 
CSRI MHM 


图 1 实证 研究 各 方法 识别 出 的 两 种 作答 行为 在 题目 层面 反应 时 分 布 (以 48 题 为 例 ) 


表 6 实证 研究 不 同方 法 RTE 指标 与 认真 完成 测验 重要 


性 评价 以 及 完成 测验 努力 程度 评价 的 相关 


RTE ”认真 完成 测验 重要 性 评价 ”完成 测验 努力 程度 评价 


OSR 0.055* 0.193** 
CSR 0.075** 0.238** 
CSRI 0.073** 0.271** 
MHM 0.087** 0.288** 


ik: * 表 示 在 0.05 水 平 显 著 , ** 表 示 在 0.01 水 平 显著 。 


表 7 实证 研究 不 同 组 被 试 在 随机 猜测 比例 上 选择 的 人 


数 百 分 比 (%) 
方法 分 组 0~5% 696-2599 26%~50% 大 于 50% 
OSR 努力 作答 组 27.96 41.63 21.81 8.60 


为 了 进一步 考察 努力 作答 组 和 不 努力 作答 组 
在 不 同 选项 上 的 分 布 是 否 存在 显著 差异 ， 对 其 进行 


不 努力 作答 组 923 47.69 26.15 16.92 
CSR ”努力 作答 组 2825 41.94 21.52 8.29 
不 努力 作答 组 ”10.11 41.57 29.21 19.10 
CSRI 努力 作答 组 28.80 42.00 21.28 7.92 
不 努力 作答 组 855 4103 29.92 20.51 
MHM 努力 作答 组 28.84 41.77 21.12 8.27 
不 努力 作答 组 9.02 4344 31.15 16.39 


卡 方 检验 并 计算 了 效应 量 ， 卡 方 检验 的 效应 量 采 用 
Cramer's V 系数 (McHugh, 2013)。 从 表 8 可 以 看 出 ， 
使 用 4 种 方法 识别 的 努力 作答 组 和 不 努力 作答 组 ， 
在 随机 猜测 比例 上 的 选择 都 存在 显著 差异 ， 并且， 
使 用 CSRI 识别 得 到 的 分 组 在 选项 上 的 差异 大 于 
MHM 大 于 CSR 大 于 OSR。 这 也 可 以 看 作 方 法 会 聚 
效 度 的 另 一 个 证 据 。 总 的 来 说 , CSRI 和 MHM 的 会 
聚 效 度 大 于 其 余 两 种 方法 。 


表 8 实证 研究 不 同 组 被 试 在 随机 猜测 比例 上 选择 的 卡 


方 检验 及 效应 量 结果 
方法 卡 方 值 显著 性 效应 量 
OSR 13.86 0.003 0.20 
CSR 23.15 <0.001 0.26 
CSRI 38.72 <0.001 0.34 
MHM 29.41 <0.001 0.30 


5.2.3 ”估计 结果 的 比较 

当 数 据 中 存在 不 努力 作答 时 , 使 用 原始 数据 会 
得 到 有 偏差 的 估计 结果 ， 而 使 用 标准 化 残 差 系列 方 
法 与 MHM 能 够 在 大 部 分 情况 下 减 小 参数 估计 的 偏 
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差 。 为 了 考察 不 同方 法 得 到 的 参数 估计 结果 与 基于 
原始 数据 得 到 的 参数 估计 结果 之 间 的 差异 ， 首 先 基 
于 原始 数据 应 用 多 层 模型 估计 参数 作为 比较 的 基 
线 , 然后 计算 不 同方 法 得 到 的 参数 估计 值 与 基线 参 
数 估 计 值 的 相对 差异 (relative difference，RD) 和 相 
对 差异 均 方 根 (relative root mean square difference， 
RRMSD),， 其 计算 公式 与 公式 (8)(9) 类 似 ， 区 别 在 于 
使 用 基于 原始 数据 估计 得 到 的 参数 估计 值 代替 原 
公式 中 的 真 值 。 结 果 如 表 9 所 示 。 


表 9 实证 研究 不 同方 法 和 原始 数据 参数 估计 结果 比较 


RD RRMSD 


OSR CSR CSRI MHM OSR CSR CSRI MHM 


a 0.02 0.03 0.06 0.02 0.06 0.08 0.11 0.33 
b 0.05 0.07 0.12 0.17 0.10 0.14 021 0.28 
a 0.77 -0.84 -0.96 -1.14 0.82 0.90 1.02 1.20 
p 0.11 —0.12 -0.14 -0.02 0.12 0.14 0.16 0.10 
0 
T 


0.00 0.00 -0.01 -0.03 0.10 0.11 0.15 021 
0.00 0.00 0.00 0.09 0.15 0.15 020 0.21 


ik: RD 表示 相对 差异 , RRMSD 表示 相对 差异 均 方 根 。 


AR 9 看 出 ， 对 于 区 分 度 参 数 ， 各 方法 与 原始 
数据 得 到 的 估计 结果 相 比 几乎 都 没有 差异 。 对 于 难 
度 参数 , CSRI 和 MHM 得 到 的 估计 值 小 于 原始 数据 
的 估计 结果 。 对 于 时 间 区 分 度 参 数 ， 各 方法 得 到 的 
估计 结果 明显 大 于 原始 数据 的 估计 结果 , 并且 差 异 
程度 MHM>CSRI>CSR>OSR。 对 于 时 间 密 度 参 数 ， 
标准 化 残 差 系列 方法 得 到 的 估计 结果 大 于 原始 数 
据 的 估计 结果 ,并 且 差 异 程度 CSRI>CSR>OSR， 
MHM 与 原始 数据 的 估计 结果 相 比 几乎 没有 差异 。 
各 方法 估计 得 到 的 被 试 参数 几乎 没有 相对 差异 。 此 
外 , 从 整体 上 看 MHM 和 CSRI 的 相对 差异 均 方 根 
也 大 于 其 它 两 种 方法 。 

根据 自 陈 量 表 关 于 随机 作答 比例 的 报告 结果 ， 
不 努力 作答 严重 性 大 于 模拟 研究 中 m” MERI ZR T; 
又 根据 MHM 的 识别 结果 , 努力 作答 和 不 努力 作答 
的 对 数 反 应 时 差异 为 1.529,， 大 于 模拟 研究 中 dy 
小 的 条 件 。 可 以 推测 ， 实 证 研究 的 数据 较 接 近 模 拟 
WRP m” 高 dpz 大 的 条 件 。 结 合 表 4 可 知 ， 当 数 
据 符 合 MHM 假设 且 z” i dap KES, MHM 和 
CSRI 表现 都 优 于 CSR, OSR。 而 实证 研究 通过 效 度 
验证 , 证 明 CSRI 和 MHM 都 能 够 得 到 较 有 效 的 识 
HER, 并且 参数 估计 值 和 原始 数据 估计 结果 相 比 
差异 最 大 。 这 与 我 们 对 数据 中 不 努力 作答 情况 的 预 
估 和 方法 选择 的 建议 也 是 一 致 的 。 
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61 方法 比较 

本 人 研究 采用 模拟 研究 和 实证 研究 相 结 合 的 方 
法 ,对 这 两 类 方法 进行 了 比较 , 得 到 的 结果 如 下 。 

从 收敛 情况 来 看 ,标准 化 残 差 系列 方法 由 于 采 
用 了 相对 较 简 单 的 多 层 模型 ,不 存在 参数 估计 不 收 
敛 的 问题 。 而 MHM 由 于 在 多 层 模 型 的 基础 上 加 入 
了 两 种 作答 的 混合 ,要 多 估计 RJ+2 个 参数 (7 R 
示 被 试 数 ,7 表示 题目 数 , FJ 个 作答 分 类 潜 变 量 A， , 
J 个 不 努力 作答 答对 概率 参数 gj/，2 个 不 努力 作答 
反应 时 分 布 参数 1,0, ), 当 样本 量 很 大 或 题目 数 很 
ZN, 会 极 大 增加 待 估 参数 的 数量 ,造成 不 容易 收 
敛 的 问题 。 尤 其 对 于 作答 分 类 参数 ， 该 问题 更 严重 。 
除 此 之 外 ,两 类 方法 的 估计 速度 也 不 同 。 笔 者 通过 
模拟 实验 证 明 ， 随 着 测验 长 度 增加 , MHM 的 耗 时 
明显 增加 ， 而 其 他 方法 耗 时 增加 相对 缓慢 。 例 如 ， 
使 用 处 理 器 为 Intel(R)Core(TM)i7-9700, W4 29 
32GB 的 计算 机 分 析 数 据 ， 以 情境 1 Pah 40%, 
2; Eg, dap 大 的 条 件 为 例 ， 当 样本 量 为 2000, W 
验 长 度 为 10 时 , OSR, CSR, CSRI 和 MHM 的 耗 时 
分 别 约 为 92 分 钟 、63 分 钟 、78 分 钟 和 240 分 钟 。 
其 他 条 件 固定 ， 当 测验 长 度 增 加 至 50 题 时 ，4 种 方 
法 的 耗 时 分 别 约 为 526 49h. 510 分 钟 、630 分 钟 
和 1160 分 钟 ,同等 条 件 下 ， 即 便 选 用 标准 化 残 差 系 
列 方法 中 最 复杂 的 CSRI 完成 识别 和 参数 估计 ， 耗 
时 也 仅 为 MHM 耗 时 的 约 1/2 以 下 。 因 此 出 于 效率 
的 考虑 , CSRI 是 较 好 的 选择 。 

从 识别 情况 来 看 ， 当 数据 中 含有 不 努力 作答 时 ， 
CSRI 识别 出 的 不 努力 作答 比例 相对 较 高 ， 并 且 ， 
其 正确 识别 率 (TPR) 也 基本 大 于 MHM ,在 大 部 分 情 
况 下 , MHM 的 TPR 甚至 小 于 OSR 和 CSR, 尤其 在 
dar 小 的 情况 下 劣势 更 加 明显 。 这 可 能 是 由 于 此 时 
两 种 作答 反应 时 差异 小 , 该 模型 很 难 根 据 反 应 时 特 
征 准确 区 分 出 这 两 个 类 别 。 例 如 ， 有 时 估计 得 到 的 
不 努力 作答 反应 时 分 布 的 均值 (4 ) 和 标准 差 (o. ) 都 
较 小 (例如 ， 当 zx = 40%, z^" Fi dg 小 时 , 30 KE 
复 得 到 平均 估计 值 ,= 1.14, 6 =0.44), 那么 基于 
不 努力 作答 反应 时 模型 的 假设 , 就 可 能 只 找 出 那些 
反应 时 极端 短 的 作答 而 遗漏 了 大 部 分 反应 时 相对 
较 长 的 不 努力 作答 。 而 CSRI 所 基于 的 残 差 是 根据 
题目 参数 和 速度 计算 出 的 ， 即 使 实际 反应 时 相对 较 
长 ， 如 果 速 度 较 慢 , 仍 能 够 得 到 较 小 的 残 差 从 而 被 
识别 为 不 努力 作答 ,总 的 来 看 , MHM 在 识别 准确 性 
上 依赖 于 数据 产生 的 模型 和 两 种 作答 之 间 的 差异 ， 
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当 数 据 产生 的 模型 符合 该 方法 假设 上 且 两 种 作答 反 
应 时 差异 大 时 , 该 方法 表现 较 好 ,而 CSRI 表现 相 
对 稳定 。CSRI 在 大 部 分 条 件 下 错误 识别 率 较 高 ,说 
明 该 方法 存在 超 识 别 问题 。 在 本 研究 中 ,该 方法 
FDR 较 大 也 未 造成 参数 估计 误差 的 增加 ,这 可 能 
是 因为 参数 估计 时 将 作答 层面 的 不 努力 作答 蔡 换 
为 缺失 ， 并 未 造成 样本 量 明 显 减少 。 并 且 ,， 本 研究 
识别 出 的 不 努力 作答 比例 整体 不 高 。 根 据 Rose 
(2013) 的 研究 结果 ,无论 缺 失 机 制 如 何 ， 当 整体 数 
据 中 的 缺失 比例 在 30% 以 下 时 , 采用 忽略 的 方式 得 
到 的 参数 估计 结果 是 具有 稳健 性 的 ,因此 可 以 推断 ， 
如 果 CSRI 识 别 出 的 不 努力 作答 比例 达到 30% 以 上 ， 
超 识 别 问题 可 能 带 来 一 定 程 度 的 参数 估计 误差 ， 此 
时 选用 该 方法 需要 尤其 谨慎 。 

从 参数 估计 情况 来 看 ，CSRI 的 结果 整体 上 接 
近 或 优 于 MHM, 在 dep 小 或 者 产生 数据 的 模型 不 
符合 MHM 假设 的 情况 下 ,前 者 的 优势 更 为 明显 ， 
这 与 混合 多 层 模 型 具有 强 假 设 的 局 限 是 有 关 的 。 此 
外 ，CSRI 在 参数 估计 方面 的 缺陷 主要 是 在 一 些 条 
件 下 存在 一 定 程度 的 超 识别 问题 ,删除 了 过 多 反应 
时 短 的 作答 后 ,造成 反应 时 分 布 相对 集中 , 方差 变 
小 ， 时 间 区 分 度 被 高 估 。 此 外 , 由 于 不 努力 作答 严 
重 性 是 影响 参数 估计 准确 性 的 重要 因素 ， 为 进一步 
探讨 不 努力 作答 严重 性 对 各 处 理 方法 的 影响 ， 基 于 
已 有 模拟 研究 ,在 模拟 研究 的 情境 1 中 ,固定 = 
4096, dap 为 大 ,增加 不 努力 作答 严重 性 的 比例 的 
水 平 ， 形 成 无 不 努力 作答 ,不 努力 作答 严重 性 低 
( 27" ~U(0,0.25) )， 中 (到 "~U(0.25,0.5) )， 高 
(一 “~U(0.5.0.75)) 共 4 个 条 件 。 进 一 步 比较 各 条 
件 下 各 方法 得 到 的 参数 估计 值 RMSE。 结 果 发 现 ， 
总 的 来 说 ， 随 着 不 努力 作答 严重 性 增加 ，OSR 和 
CSR 得 到 的 参数 估计 值 RMSE 增加 ,而 CSRI 和 


MHM 得 到 的 RMSE 基本 稳定 ,它们 和 另外 两 种 方 
法 的 差异 逐渐 增 大 。 因 此 ， 当 不 努力 作答 严重 性 为 
中 或 高 时 ， 建 议 选 用 CSRI 4l MHM, 尤其 当 严 重 性 
高 时 这 两 种 方法 的 优势 更 强 。 
6.2 方法 总 结 和 建议 

标准 化 残 差 系列 方法 和 MHM 从 思路 上 都 假设 ， 
如 果 存 在 异常 作答 ,整个 作答 反应 和 反应 时 都 呈现 
出 混合 两 类 模式 的 特点 。 但 是 ,它们 处 理 两 类 作答 
模式 的 思路 不 同 。 标 准 化 残 差 系列 方法 的 主要 思想 
是 将 整个 反应 时 残 差分 布 中 极端 小 的 值 所 对 应 的 
作答 识别 为 不 努力 作答 。 这 类 似 于 假设 检验 的 思 
路 : 判断 整个 分 布 中 极端 的 数值 不 属于 这 个 分 布 而 
犯错 的 概率 是 非常 小 的 ,因此 更 有 理由 相信 这 些 极 
端的 数值 属于 另 一 个 分 布 (不 努力 作答 的 反应 时 分 
布 )。 然 而 大 量 不 努力 作答 会 造成 参数 估计 的 偏差 ， 
进而 带 来 标准 化 反应 时 残 差 的 偏差 ,造成 残 差 不 一 
定 服从 标准 正 态 分 布 , 严重 影响 该 方法 的 表现 。 因 
此 , CSR 在 OSR 基础 上 , 使 用 了 筛选 努力 作答 群体 
估计 题目 参数 ， 固 定 参数 并 迭代 净化 这 两 个 策略 ， 
在 一 定 程度 上 提高 了 识别 准确 性 (Liu & Liu, 2021)。 
MHM 的 基本 思想 在 于 用 平等 的 视角 对 待 两 类 作答 
模式 ， 将 作答 反应 的 正确 概率 、 反 应 时 分 布 ， 都 视 
作 两 类 模式 的 混合 。 这 种 思路 具有 一 定 灵 活性 : 一 
是 在 数据 中 存在 不 努力 作答 的 情况 下 ,两 类 作答 分 
别 对 各 自 的 模型 参数 提供 信息 ,不 会 出 现 传统 模型 
参数 估计 误差 随 不 努力 作答 比例 增加 而 增 大 的 现 
象 ; 二 是 从 理论 上 说 该 模型 也 能 够 处 理 数据 中 不 存 
在 不 努力 作答 的 情况 ,因为 此 时 相当 于 每 个 作答 的 
潜 类 别 都 相同 。 但 是 , 该 方法 包含 了 强 假设 , 在 其 
不 被 满足 的 情况 下 结果 可 能 会 存在 一 定 偏差 。 

总 的 来 说 ， 两 类 方法 的 特点 如 表 10 所 示 。 
根据 各 方法 特点 ， 建 议 在 实际 应 用 中 先 结合 每 


表 10 研究 中 比较 的 4 种 方法 特点 小 结 
比较 指标 标准 化 残 差 系列 方法 -— 
OSR CSR CSRI 

收敛 情况 全 部 收敛 全 部 收敛 全 部 收敛 作答 分 类 参数 不 易 收敛 

所 需 时 间 短 短 较 短 长 

正确 识别 率 不 如 CSRI 不 如 CSRI 相对 最 好 不 如 CSRI 

漠 误 识别 率 相对 较 大 相对 较 大 相对 较 大 最 低 

参数 估计 准确 性 ”不 如 CSRI 不 如 CSRI 相对 较 好 , 但 部 分 条 件 下 对 在 数据 符合 其 假设 且 两 种 作答 反 
时 间 区 分 度 估计 误差 较 大 ”应 时 差异 大 的 条 件 下 较 好 

适用 情况 不 努力 作答 严重 性 低 不 努力 作答 严重 性 低 。 不 努力 作答 严重 性 高 或 中 不 努力 作 管 严重 性 高 或 中 ,产生 数 


据 符合 MHM 假设 ， 两 种 作答 反应 
时 差异 大 
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道 题目 上 被 试 反应 时 的 分 布 特征 ,以 及 测验 是 低 利 
害 还 是 高 利害 ， 预 判 不 努力 作答 的 严重 性 程度 。 如 
果 严 重 性 很 低 甚 至 可 能 没有 不 努力 作答 ， 出 于 效率 
考虑 可 以 选用 最 简单 的 OSR。 如 果 严 重 性 较 低 ， 可 
以 选用 标准 化 残 差 系列 方法 或 MHM。 如 果 严 重 性 
较 高 ， 可 以 首选 CSRI, 但 如 果 应 用 该 方法 后 发 现 
识别 出 的 不 努力 作答 比例 较 高 (ie.，>30%)， 可 以 选 
用 MHM., 
6.3 ”未 来 研究 展望 

本 研究 也 具有 一 定 的 局 限 性 ,未 来 研究 可 以 从 
以 下 三 个 方面 加 以 改进 。 首 先 ， 尽管 CSRI 整体 表 
现 较 好 , 但 仍 存在 一 定 缺 陷 ， 这 可 能 是 由 于 该 方法 
的 超 识 别 问题 且 直 接 将 不 努力 作答 处 理 为 缺失 。 未 
来 研究 可 以 考虑 对 该 方法 采用 更 加 严格 的 残 差 阔 
值 或 对 反应 时 模型 采用 稳健 的 估计 方法 (Hong et al., 
2021)。 稳 健 的 估计 方法 可 以 在 估计 反应 时 模型 参 
数 时 ， 对 不 努力 作答 赋予 较 低 的 权重 ,应当 能 从 一 
定 程度 上 优化 时 间 区 分 度 的 佑 计 结 果 。 其 次 ,模拟 
研究 发 现 ， 当 不 努力 作答 严重 性 较 低 时 ,选用 OSR 
和 CSR 更 为 简便 高 效 。 而 当 不 努力 作答 严重 性 较 
高 时 , CSRI 和 MHM 才 表 现 出 较 大 优势 。 另 外 ， 当 
数据 不 符合 MHM 的 假设 时 也 不 应 选择 该 方法 。 然 
而 目前 , 还 没有 方法 能 检验 实际 数据 是 否 符合 该 模 
型 假设 。 因 此 ,从 提高 方法 使 用 效率 的 角度 考虑 ， 
未 来 研究 可 以 基于 一 些 不 含 强 假设 方法 的 初步 识 
别 结果 ,尝试 构建 一 些 指 标 , 用 于 测量 整个 数据 中 
不 努力 作答 严重 程度 , 或 检验 数据 是 否 符 合 MHM 
假设 ,从 而 指导 实践 研究 者 根据 指标 选择 合适 的 方 
法 。 最 后 , 针对 MHM 估计 效率 不 高 的 问题 ,未 来 
研究 可 以 考虑 将 固定 参数 的 策略 应 用 于 MHM 中 ， 
第 一 步 筛选 努力 作答 群体 并 估计 题目 参数 ， 第 二 步 
将 题目 参数 固定 ， 对 其 他 参数 进行 条 件 估计 。 经 初步 
试验 ,该 策略 能 将 估计 时 间 缩 短 到 原来 的 一 半 以 下 。 


7 结论 


本 研究 得 出 的 主要 结论 如 下 : 

(1) 当 不 努力 作答 严重 性 较 低 时 ,标准 化 残 差 
系列 方法 和 MHM 在 参数 估计 准确 性 方面 的 表现 非 
常 接近 。 

(2) 当 不 努力 作答 严重 性 较 高 时 ，CSRI 在 识别 
准确 性 和 参数 估计 准确 性 方面 的 表现 基本 接近 或 
优 于 MHM, 并 且 , 不 存在 参数 估计 收敛 的 问题 ， 
有 具 有 更 高 的 效率 ,在 不 同情 境 下 具有 更 好 的 稳健 性 ， 
在 实际 研究 中 可 以 作为 首选 的 方法 。 


出 | 


(3)MHM 的 表现 更 依赖 于 数据 的 具体 情况 , DU 
在 数据 符合 其 假设 且 两 种 作答 反应 时 差异 大 的 条 
件 下 有 较 好 表现 ,并且 该 方法 对 于 作答 分 类 参数 的 
佑 计 存 在 不 易 收敛 的 问题 , 识别 准确 性 普遍 较 低 。 
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Abstract 

Assessment datasets contaminated by non-effortful responses may lead to serious consequences if not 
handled appropriately. Previous research has proposed two different strategies: down-weighting and 
accommodating. Down-weighting tries to limit the influence of aberrant responses on parameter estimation by 
reducing their weight. The extreme form of down-weighting is the detection and removal of irregular responses 
and response times (RTs). The standard residual-based methods, including the recently developed residual 
method using an iterative purification process, can be used to detect non-effortful responses in the framework of 
down-weighting. In accommodating, on the other hand, one tries to extend a model in order to account for the 
contaminations directly. This boils down to a mixture hierarchical model (MHM) for responses and RTs. 
However, to the authors’ knowledge, few studies have compared standard residual methods and MHM under 
different simulation conditions. It is unknown which method should be applied in different situations. 
Meanwhile, MHM has strong assumptions for different types of responses. It would be valuable to examine the 
performance of the method when the assumptions are violated. The purpose of this study is to compare standard 
residual methods and MHM under a fully crossed simulation design. In addition, specific recommendations for 
their applications are provided. 

The simulation study included two scenarios. In simulation scenario I, data were generated under the 
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assumptions of MHM. In simulation scenario II, the assumptions of MHM concerning non-effortful responses 
and RTs were both violated. Simulation scenario I had three manipulated factors. (1) Non-effort prevalence ( z ), 
which was the proportion of individuals with non-effortful responses. It had three levels: 0%, 20% and 40%. (2) 


non 


Non-effort severity ( z; ^), which was the proportion of non-effortful responses for each non-effortful individual. 


non 


It varied between two levels: low and high. When 7; 


vo" was low, z^. was generated from U (0, 0.25); while 


non 


when 7; me 


was high, 7; 


was generated from U (0.5, 0.75), where “U” denoted a uniform distribution. (3) 
Difference between RTs of non-effortful and effortful responses (dp, ). The difference between RTs from two 
groups, drr, had two levels, small and large. The logarithm of RTs of non-effortful responses were generated 
from normal distribution N ( u ,0.5°), where iu 2-1 when dgr was small, p=-2 when dp, was large. For 


generating the non-effortful responses, we followed Wang, Xu and Shang (2018), with the probability of a 
correct response g; setting at 0.25 for all non-effortful responses. In simulation scenario II, only the first two 


factors were considered. Non-effortful RTs were generated from a uniform distribution with a lower bound of 
exp(—5) and upper bound being the 5th percentile of RT on item j with z=0. The probability of a correct 


response for non-effortful responses was dependent on the ability level of each examinee. In all the conditions, 
sample size was fixed at J = 2,000 and test length was fixed at J = 30. For each condition, 30 replications were 
generated. For effortful responses, Responses and RTs were simulated from van der Linden’s (2007) hierarchical 


model. Item parameters were generated with a, ~ U (12:5), b; ~ N(0,1), a, ~ U (1.5,2.5), 2; ~U(-0.2,0.2). 


For simulees, the person parameters (8,5) were generated from a bivariate normal distribution with the mean 
1 0.25 


vector of p =(0,0)'and the covariance matrix of X= 
0.25 0.25 


I Four methods were compared under each 


condition: the original standard residual method (OSR), conditional estimate standard residual (CSR), 
conditional estimate with fixed item parameters standard residual method using iterative purifying procedure 
(CSRI), and MHM. These methods were implemented in R and JAGS using a Bayesian MCMC sampling 
method for parameter calibration. Finally, these methods were evaluated in terms of convergence rate, detection 
accuracy and parameter recovery. 

The results are presented as following. First of all, MHM suffered from convergence issues, especially for 
the latent variable indicating non-effortful responses. On the contrary, all the standard residual methods achieved 
convergence successfully. The convergence issues were more serious in simulation scenario II. Secondly, when 
all the items were assumed to have effortful responses, the false positive rate (FPR) of MHM was 0. Although 
the standard residual methods had FPR around 5% (the nominal level), the accuracy of parameter estimates was 
similar for all these methods. Third, when data were contaminated by non-effortful responses, CSRI had higher 
true positive rate (TPR) almost in all the conditions. MHM showed lower TPR but lower false discovery rate 


(FDR), exhibiting even lower TPR in simulation scenario II. When 7;^' was high, CSRI and MHM showed 


non 


more advantages over the other methods in terms of parameter recovery. However, when 7; 


drr was small, MHM generally had higher RMSE than CSRI. Compared to simulation scenario I, MHM 


was high and 


performed worse in simulation scenario II. The only problem CSRI needed to deal with was its overestimation of 


time discrimination parameter across all the conditions except for when 2=40% and dp, was large. In a real 


data example, all the methods were applied to a dataset collected for program assessment and accountability 
purposes from undergraduates at a mid-sized southeastern university in USA. Evidences from convergence 
validity showed that CSRI and MHM might detect non-effortful responses more accurately and obtain more 
precise parameter estimates for this data. 

In conclusion, CSRI generally performed better than the other methods across all the conditions. It is highly 
recommended to use this method in practice because: (1) It showed acceptable FPR and fairly accurate 
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parameter estimates even when all responses were effortful; (2) It was free of strong assumptions, which meant 
that it would be robust under various situations; (3) It showed most advantages when 75^. was high in terms of 


the detection of non-effortful responses and the improvement of the parameter estimation. In order to improve 
the estimation of time discrimination parameter in CSRI, the robust estimation methods that down-weight 


flagged response patterns can be used as an alternative to directly removing non-effortful responses (i.e., the 
method in the current study). MHM can perform well when all its assumptions are met and 7;^. is high, dy; 


is large. However, some parameters have difficulty in convergence under MHM, which will limit its application 
in practice. 


Key words  non-effortful response, standard response time residual, iterative purification, mixture hierarchical 
model, Bayesian estimation 


